© BUNDESREPUBLIK @ Patentschrift 

DEUTSCHLAND @ Qg 19636739 CI 



<fj) IntCI": 

G 10 L 5/06 




DEUTSCHES 
PATENTAMT 



<g> Aktenzeichen: 19636739.5-53 

(2) Anmeldetag: 10. 9.96 

(§) Offenlegungstag: — 

® Veroffentlichungstag 

der Patenterteilung: 3. 7. 97 



CO 



CO 
CD 



Innerhalb von 3 Monaten nach Veroffentiichung der Erteilung kann Einspruch erhoben werden 



1U 

Q 



© Patentinhaber: 

Siemens AG, 80333 Munchen, DE 

® Erfinder: 

Kohler, Joachim, 80634 Munchen, DE 

® Fur die Beurteilung der Patentfahigkeit 
in Betracht gezogene Druckschriften: 

WO 95 02 879 A1 
DIGALAKIS, V. f SANKAR, A., BEAUFAYS, F.: 
^Training Data Clustering For Improved Speech 
Recognition.* In Proc. EUROSPEECH '95, 
pages 503-506, Madrid 1995; 

DALSGAARD, F., ANDERSEN, O.: ©Identification of 
Mono and Poly-phonemes using acousitc-phonetic 
Features derived by a self-organising Neural 
Network.* In Proc. ICSLP '92, pages 547-550, 
Banff 1992; 

HAU EN STEIN, A., MARSCHALL, E.: iMethodsfor 
improved Speech Recognition Over the Telephone 



Lines. « In Proc. ICASSP '95, pages 425-428, 
Detroit 1995; 

HIERONYMUS, J.L: sASCII Phonetic Symbols for 
the World's Languages: Worldbetct preprint 1993; 
LADEFOGED, P.: »A Course in Phonetics.* Harcourt 
Brace Jovanovich, San Diego 1993; 
DALSGAARD. P., ANDERSEN, 0., BARRY, W.: 
sData- driven Identification of Poly- and 
Mono-phonemes for four European Languages.* In 
Proc. EUROSPEECH 
'93, pages 759-762, Berlin 1993; 
COLE, A., MUTHUSAMY, Y.K., OSHIKA. B.T.: »The 
OGI Multilanguage Telephone Corpus.* In Proc. 
IC-SLP '92, pages 895-898, Banff 1992; 



@ Verfahren zur Mehrsprachenverwendung eines hidden Markov Lautmodelles in einem 
Spracherkennungssystem 

@ Mit der Erfindung wird eine Methode zur Bestimmung der 
Ahnlichkeften von Lauten uber verschisdene Sprachen hin- 
weg angegeben. Weiterhin wird ein neuer Ansatz zur hidden 
Markov Modellierung von muttilingualen Phonemen angege- 
ben. Bei der vorgeschlagenen Methode zur akustisch phone- 
tischen Modellierung werden sowoht sprachspezifische sis 
auch sprachunabhangige Eigenschaften bei der Zusammen- 
fassung der Wahrecheinlichkeitsdichten fur unterschiedliche 
hidden Markov Lautmodefle in verschiedenen Sprachen 
angegeben. 
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Bescfardbung 

Die Erfindung bezieht sich auf hidden Markov ModeUe far Spracherkennungssysteme, wobei ein solches 
ModeD fur mehrere Sprachen herangezogen werden soil, indem die akustischen and phonetischen Ahnhchkeiten 
5 zwischen den unterschiedlichen Sprachen ausgenutzt werden. 

Ein Spracherkennungssystem fur mehrere Sprachen ist aus der WO 95/02879 Al bekannt 
Bei der Spracherkennung besteht ein groBes Problem darin, daB fur jede Spracfae in welche die Spracherken- 
nungstechnologie eingefuhrt werden soil, neue akusnsch phonetische ModeUe trainiert werden mussen urn eine 
Landeranpassung durchfuhren zu konnen. Meistens werden bei gingigen Spracherkennungssystemen hidden 
o Markov ModeUe zur Modellierung der sprachspezifischen Laute verwendet Aus diesen statistisch modellierten 
Lautmodeuen werden im AnschluB akustische Wortmodelle zusammengefugt, welche wihrend ernes Suchpro- 
zesses beim Spracherkennungsvorgang erkannt werden. Zum Training dieser LautmodeDe werden sehr umfang- 
reiche Spracfadatenbanken benotigt, deren Sammlung und Aufbereitung einen auBerst kosten- und zeitintensi- 
ven ProzeBdarstellt. Hierdurch entstehen Nachtefle bei der Portierang einer Spracherkennungstechnologie von 
5 emer Sprache m erne weitere Spracfae, da die Ersteflung einer neuen Sprachdatenbank einerseits eine Verteue- 
rnng des Produktes bedeutet und andererseits eine zeitliche Verzdgerung bei der Markteinfflhnmg bedingt 

In gingigen erwerbbaren Spracherkennungssystemen werden ausschUeSIich sprachspezi&che ModeUe ver- 
wendet Zur Poraerung dieser Systeme in eine neue Sprache werden umfangreiche Spracfadatenbanken gesam- 
melt und aufberettet AnschlieBend werden die Lautmodelle fur die neue Spracfae nut diesen gesammehen 
Sprachdaten von Grand auf neu trainiert. 

Urn den Aufwand und die Zeitverzogerung bei der Portierang von Spracherkennungssystemen in unter- 
schiedliche Sprachen zu vemngern, sollte also untersucht werden, ob einzelne LautmodeUe fur die Verwendune 
m verschiedenen Sprachen geeignet sind. Hierzu gibt es in [2] berehs Ansatze mehrsprachige UutmodeUelu 
ersteflen und diese bei der Spracherkennung in den jeweiligen Sprachen einzusetzen. Dort werden auch die 
Begnffe Pory- und Monophoneme eingefuhrt Wobei Poryphoneme Laute bedeuten, deren LautbUdungseieen- 
schaften uber mehrere Sprachen hinweg ahnlich genug sind, urn gleichgesetzt zu werden. Mit Monophonemen 
werden Laute bezeicfanet welche sprachspezinsche Eigenschaften aufweisen. Urn fur solche Entwicklunesarbei- 
^„Tiy ,lter ^f gei1 w 6 ^- neue Sprachdatenbanken trainieren zu mussen. stehen solche schon als 
L^^e^SSotkSn? 1 171 WClterer StaDd der ™ m -ehrspnKAigen Verwendung von 
Die der Erfindung zugnmdeuegende Aufgabe besteht demnach darin, ein Verfahren zur Mehrsprachenver- 
wendung ernes hidden Markov LautmodeUes in einem Spracherkennungssystem anzugeben, durch welches der 
Pomerungsaufwand von Spracherkennungssystemen in eine andere Sprache minimiert wird, indem die Parame- 
ter in einem multdingualen Spracherkennungssystem reduziert werden. 
Diese Aufgabe wird gemSB den Merkmalen der PatentansprQche 1 und 6 geldst 
WetterbOdungen der Erfindung ergeben sich aus den abhangigen Ansprficben. 

En besonderer Vorteildes erfmdungsgemaBen Verfahrens besteht darin, daB ein statistisches Ahnlichkeits- 
maB angegeben wird, welches es erlaubt aus einer gegebenen Anzahl von verschiedenen Lautmodeuen fur 
fitahche Lautem unterscluedhchen Sprachen dasjenige UutmodeO auszuwahlen. welches in seiner Charakteri- 
stik afle zur VerfOgung stehenden Merkmalsvektoren der jeweiligen Laute am besten beschreibt 
t ^ .i?, VOr !! T**. ^ MaBfurdie Auswahl des besten hidden Markov Modelles fur unterschiedliche 
^"^?r^ 0ren de - '^thmische WahrscheinUchkeitsabstand zwischen den jeweiligen hidden Mar- 
kov ModeUen und emem jeden Merkmalsvektor ermittelt Hierdurch wird ein MaB zur Verfugung gesteUt 
ralSSd^Sek! bezuguch der Ahnlichkeit von einzelnen LautmodeUen und deren ErkenWTgs- 

L^lSSL^f^^i ^H***^ Beschreibung eines moglichst reprasentativen hidden Markov 
LautmodeUes nach d» Erfindung der anthmetische Mittelwert der logarithmischen Wahrscheinlichkeitsabstan- 

Sn^ilSu^^rwuS 1 ^ JeWefligen * ««*»* ein 

i^u" 6 ^ T" 1 ^ erfi ^|pgs«emaBe BeschreibtingsmaB fur die representative Bgenschaft eines hidden 
Markov ModeUs zur Beschreibung von Lauten in unterschiedlichen Sprachen dadurch geMdet, daB die erfin- 
"SSfn^^Sinfr^ "g*!"** da hierdurch ein geringer Rechef aorwa^ntsTeht 

Besonders voneflhaft wird fur die erfindungsgemaBe Anwendung eines BeschrefljungsmaBes eine Schranken- 
b^ugmgvorgegeben, mit der erne Erkennungsrate des reprasentierenden hidden Markov ModeUs eingesteUt 

kh?!^?S v ? rte j Ulaft *"? das erfindungsgemaBe Verfahren der Speicheraufwand fur eine Sprachbi- 
bl^ekreduaertda em ModeU fur mehrere Sprachen verwendet werden kann und ebeiifalls der Portend 
au^d von einer Sprache m die andere minimiert, was einen reduzierten Zeitaufwand fur die Portierung 
bedingt Ebenso vorteiUiaftwird I em genngerer Rechenaufwand bei der Viterbi-Suche ermoglicht, da beispiels- 
weise bei mehrsprachigen Eingabesystemen weniger ModeUe QberprOft werden mussen. 
Besonders vorteilhaft werden bei der Erfindung besondere bidden Markov ModeUe zur Verwendune in 
Spracherkennungssystemen generiert Durch die erfindungsgemaBe Vorgehensweise konnen 
h^khm Markov LautmodeUe fur Laute in mehreren Sprachen zu PoIypnonem-ModellL zusanSngdSS 
r^feS ^^^Oberlappungsbereiche der verwendeten Standardwahrscheiiuic^eitsdichteve^eaun- 
fSJZ^JSSF**?^ M P d 1 eUen "°t"sucht Zur Beschreibung des Polyphonem-ModeUes kaWeu?e 
sfltl JT^ T ,denUsch b » de ° unterschiedlichen ModeUen verwendeten ^taiulardwahi^hliScei^ 
S^^Sen herangezogen werden. ExperimenteUe Befunde haben gezeigt, daB vorteilhaft auch mehrere 
Standardverteilungen aus unterschiedlichen SprachmodeUen verwendet werden kSnnen. ohne daB die bierduPch 
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bewirkte Verwischung der einzelnen Sprachcharakteristika zu einer significant niedrigeren Erkennungsrate 
beim Einsatz dieses ModeDs fuhren wurde. Als besonders vorteilhaft hat sich hier der Abstandsschwellenwert 
funf zwischen ahnlichen Standardwahrscheinlichkeitsverteilungsdichten bewahrt 

Besonders vorteilhaft werden beim Einsatz des erfindungsgernifien Veifahrens die hidden Markov Modelle 
mit drei Zustanden aus Anlaut, Mitteilaut und Ablaut modelliert, da hierdurch eine hinreichende Genauigkeit bei 5 
der Beschreibung der Laute erzielt wird und der Rechenaufwand bei der Erkennung in einem Spracherkenner 
geringbleibt 

Fig. 1 zeigt dabei beispielhaft den Aufbau eines einzigen Multflingualen Phonemes. In diesem Fall 1st es das 
Phonem M was dargestellt wird Die Zahl der Wahrscheinlichkeitsdichten und die Erkennungsrate fur dieses 
Phonem sind in TabeUe 4 angegeben. to 



Thr . 


tdensit (a,b, c) . 


Engl.[%] 


6erm.[%] 


Span . [%] 


0 


341(0 0 341) 


46.7 


44.7 


59.4 


2 


334(0 14 327) 


45.0 


46.4 


57.5 


3 


303(27 34 280) 


48.0 


45.8 


57.5 


4 


227(106 57 187) 


50.9 


44.1 


58.7 


5 


116(221, 48,72) 


49.3 


43.1 


57.0 


6 


61(285, 22, 34) 


41.2 


38.6 


50.4 



In Fig. 1 ist der Anlaut L, der Mittel laut M und der Ablaut R des Phonem-ModeHes dargestellt Fur die 
unterschiedlichen Sprachen Englisch EN, Deutsch DE und Spanisch SP sind die Schwerpunkte der Wahrschein- 
lichkeitsdichteveiteilungen der einzelnen verwendeten Standardwahrscheinlichkeitsdichten eingetragen und als 
WD gekennzeichnet. Hier ist beispielsweise ein hidden Markov Modell aus drei Teilzustanden dargestellt Die 30 
Erfindung soil jedoch nicht lediglich auf soiche hidden Markov Modelle beschrankt werden, obwohl diese unter 
Berucksichtigung des Kriteriums, das ein minimaler Rechenaufwand der Erkennung durchgefuhrt werden soil 
ein gewisses Optimum darstellen. Die Erfindung kann ebenso auf hidden Markov Modelle angewendet werden, 
die eine andere Anzahl von Zustanden aufweisen. Durch die Erfindung soli insbesondere erreicht werden, da£ 
der Portierungsaufwand bei der Porderung von Spracherkennungssystemen in eine andere Sprache reduziert 35 
wird und daB die verwendeten Rechenressourcen durch Reduktion der zugrundeliegenden Parameter moglichst 
gering gehalten werden. Beispielsweise konnen durch derartige Spracherkennungssysteme begrenzte Hardwa- 
reerfordernisse besser erfullt werden, insbesondere wcnn ein- und dasselbe Spracherkennungssystem fur Mehr- 
sprachenanwendung in einem Gerat zur Verfugung gesteflt werden solL 

Zunachst sollte urn das Ziel der Erfindung zu erreichen, die Ahnlichkeiten von Lauten in unterschiedlichen 40 
Sprachen auszuschopfen und beim Modeliieren zu berucksichtigen, beachtet werden, daB sich die Phoneme in 
verschiedenen Sprachen unterscheiden kdnnen, Die GrOnde hierfur bestehen vor alien Dingen in: 

— Unterschiedlichen phonetischen Kontexten, wegen der unterschiedlichen Phonemsatze in den verschie- 
denen Sprachen; 45 

— unterschiedlichen Sprechweisen; 

— verschiedenen prosodischen Merkmalen; 

— unterschiedlichen allophonischen Yariationen. 

Ein besonders wichtiger Aspekt welcher dabei zu berucksichtigen ist, besteht im Prinzip der genQgenden 50 
wahrnehmungstechnischen Unterscheidbarkeit der Phoneme [5]. Dies bedeutet daB einzelne Laute in verschie- 
denen Sprachen akustisch unterscheidbar gehalten werden, so dafi es fur den einzelnen Zuhdrer leichter ist sie 
voneinander zu separieren. Da aber jede einzelne Sprache einen unterschiedlichen Phonemschatz hat, werden 
die Grenzen zwischen zwei ahnlichen Phonemen in jeder einzelnen Sprache sprachspezifisch festgelegt Aus 
diesen Grunden hat die Auspragung eines bestimmten Lautes eine spiachspezi&che Komponente. 55 

Bevorzugt werden die Phoneme mittels kontinuierlichen dichten hidden Markov Modellen (CD-HMM) 
modelliert [3} Als dichte Funkdonen werden haufig Laplace-Mischungen benutzt Bevorzugt besteht dabei jedes 
einzelne Phonem aus drei Zustanden von links nach rechts gerichteten HMM. Die akustischen Merkmalsvekto- 
ren bestehen dabei beispielsweise aus 24 met-skalierten cepstiul, 12 delta cepstraL 12 delta delta cepstral, 
Energie, delta-Energie und delta delta-Energie-Koeffizienten, Beispielsweise wird als Lange des Untersuchungs- 60 
zeitf ensters 25 ms gewShlt, wobei die Rahmenabstande 10 ms zwischen den einzelnen Rahmen betragen. Aus 
Grunden der begrenzten GrSBe des Sprachkorpus werden bevorzugt lediglich kontextunabhingige Phoneme 
generiert Als besonders reprasentatives Phoneminventar wurde jenes aus [4] gewahlt 

Die Idee der Erfindung besteht dabei darin, daB zum einen ein Ahnlichkeitsmafi zur Verfugung gestellt wird, 
um aus standardmlBig verfugbaren SprachphonembibUotheken fur unterschiedliche Sprachen jenes hidden 65 
Markov Modell auswaliien zu konnen, welches den Merkmalsvektoren, die aus den unterschiedlichen Lautmo- 
dellen der unterschiedlichen Sprachen abgeleitet werden, am nachsten kommt Hierdurch ist es mdglich, die 
Ahnlichkeiten zweier Phonem-Modelle zu ermitteln und uber dieses AhnlichkeitenmaB basierend auf der 
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Differenz der Log-Likelihood-Werte zwischen den LautreaGsieningen und LautmodeUen eine Aussage zu 
treffen, ob es sich lohnt, einen Laut fur mehrere Sprachen gemeinsam zu modellieren, bzw. ein betreffendes 
schon bestehendes hidden Markov Modell fur die Modellierung des Lautes in mehreren Sprachen zu verwenden. 
rfierdurch wird die Zahl der Parameter, welche bei der Spracfaerkennung zu berucksichtigen sind reduziert. 
; indem die Zahl der zu untersuchenden hidden Markov Modelle reduziert wird. 

Ein zwetter Ldsungsansatz der Erfindung besteht darin, ein spezieDes Polyphonem-Modell zur Modellierung 
ernes Lautes in mehreren Sprachen zu erstelien. Hierzu werden zunachst beispielsweise drei Lautsegmente, in 
Form eines Anlautes, Mittellautes und Ablautes gebildet, deren Zustande aus mehreren Wahrscheinlichkeits- 
dichtefunktionen den sogenannten MischverteQungsdichten mit den dazugehdrigen Dichten bestehen. Diese 
Dichten der fiber verschiedenen Sprachen ahnlichen Lautsegmente werden zu einem multflingualen Codebuch 
zusainmengefaBt Somit teuen sich Lautsegmente verschiedener Sprachen die gleichen Dichten. WShrend das 
Codebuch fur mehrere Sprachen gleichzehig benutzt werden kann, werden beispielsweise die Gewichte, mit 
denen die Dichten gewichtet werden furjede Sprache getrennt ermittelt 

Zur Bildung eines geeigneten AhnlichkehsmaBes werden bevorzugt hidden Markov Modelle mit drei Zustan- 
den herangezogen. Das Abstands- oder AhnlichkeitsmaB kann dabei benutzt werden urn mehrere Phonem-Mo- 
Mle zu einem multilingualen Phonem-Modefl zusammenzufessen oder diese auf geeignete Weise zu ersetzen. 
ffierdurch kann em multilingualer Phonemschatz entwickeh werden. Bevorzugt wird zur Messung des Abstan- 
des bzw. zur Bestnnmung der Ahnfichkeit von zwei Phonem-Modeflen des selben Lautes aus unterschiedlichen 
Sprachen erne MeBgrSBe verwendet, welche auf der relativen Entropie basiert [1} Wahrend des Trainings 
werdendabei die Parameter der gemischten Laplacedicfateverteaungen der Phonem-ModeOe bestimmt Weiter- 
hin wird fur jedes Phonem ein Satz von Phonemtokens X als Merkmalsvektor aus einem Test- oder Entwick- 
lungssprachkorpus extrahierL Diese Phoneme konnen dabei durch ihr international generates phonetisches 
Etikett marlaert sein. GemaB der Erfindung werden zwei Phonem-Modelle und Xi und ihre zugehdrigen 
Phonemtoken Xi und Xj zur Bestiinmung des AhnlichkehsmaBes zwischen diesen unterschiedlichen Phonemen 
wie iolgt benandett. 

<^j) - IogppCi[Xd - logpCXilXj) (1) 

Dieses AbstandsmaB kann als Log-UkeGhood-Abstand angesehen werden, welcher darsteUt wie gut zwei 
ver^edene ModeUe zu dem selben Merkmalsvektor Xi passen. DemgemaB wird der Abstand zwischen den 
beiden Modellen Xi und Xj gemaB: 

d(X]A0 - iogppCjIXj) - IogppCj|X0 (2) 

bestimmt Um einen symmetrischen Abstand zwischen diesen beiden Phonem-Modeflen zu erhalten, wird dieser 
bevorzugt gemaB 

d ( 3l j^i) = |(d(5liA j )+d(X j ;A. i )) (3) 

bestimmt. Anhand von experimentellen Befunden konnte festgestellt werden, daS sich durchaus einige Phonem- 
Modelle aus anderen Sprachen besser fur die Verwendung in einem deutschen Spracb^kemuingssystem eienen. 
als ein deutsches Phonem-ModelL Beispielsweise gflt dies fur die Phoneme k, p und N. For diesePboneme etmet 
sich das engkscbe Phonem-ModeU besser als das deutsche. Wahrend beispielsweise ein groBer Unterschied 
^ischen dem deutschen und dem englischen ModeU fiber den Umlaut aU beobachtet wurde, was bedeutet daB 
fur beide Laute em i unterschiedhches Symbol im multilingualen Phonemschatz eingefuhrt werden some. Ande- 

I^^.fSir'J? 6 ? " nf " n w U J tS ^ n eDEEschen eine Ahnlichkeit festgestellt werden, das 
b^eutet, daB ledighch ein Phonem-ModeD fur beide Sprachen gleich gut Verwendung finden kann. Ausgehend 
davon sollte fur Jedes Symbol ernes multflingualen Phonemschatzes ein separates statistisches ModeU eneuet 
werden. In[6] wurden Polyphoneme als solche Phoneme bezeichnet. die ahnlich genug sind, um in versduedenen 
Sprachen als em emziges Phonem modelfiert zu werden. Ein Nachteil dieser Vorgehensweise besteht darin, daB 
furcke sprachspepfjsche Erkennung der voUstandige akustische Raum des Poryphonems verwendet wird. Die 
Erfindung ; hat es jedoch am Ziel, die sprachabhlngigen und die sprachspezifischen akustischen Eigenschaften 
ones mululmgualen ModeUs zu kombinieren. GemaB der Erfindung soUen in einem Poryphonem-Modell solche 
f^Tfifi 8 ^ Ra .'f m " emgegrenzt werden, in denen sich die verwendeten WahrscheinBchkeitsdich- 
tsnder emzehien Phoneme uberlappen. Hierzu wirdz. B. eine gruppierende Venuchtungstechnik (agglommera- 
bve density clustering technique) eingesetzt, um gleiche oder ahnliche Auspragungen eines Phonems *i reduzie- 

EJtSE? ? d f^, e, - ZU J bea f hten ' ledi SHch die Dichten der korrespondierenden Zustande der 
einzelnen hidden Markov Modelle m den Phonemen zusammengefaBt werden dQrfen. 

In Fig. 1 ist dabei zu erkennen, daB die jeweOigen Dichten fur die einzelnen Zustande L, M und R in den 
emgegrenzten Regwnen enthalten sind Wahrend identische Dichten Gber die einzelnen Sprachen EN DE. und 
hLlEFti!? 4 !f Uer J en „ dle _MBchungsgewichte sprachabningig. Bei dieser Bewertung soUte jedoch auch 
Sr HaufigSaS;^ s P ezifische Auspragungen eines Phonems in verschiedenen Spradien in imte^S 

^STfT 8 der ™t«a«WedIichen WahrscheirJichkeitsdichten kann dabei mh einem unterschiedU- 
chen AbstandsschweUenweit fur die WahrschemDchkeitsdichten bei der Dichtehaufung (density dustermg) 
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durchgefuhrt werden- Beispielsweise wurde mit einem Abstandsschwellenwert von fOnf die Zahl der verwende- 
tea Dichten um einen Faktor 3 gegenuber dem Ausgangszustand reduziert, ohne damit eine entscheidende 
Verschlechtening bei der Spracherkennungsrate einher ging. In diesem Fall wurden 221, 48 und 72 von den 
ursprunglichen 341 Ausgangsdichten fur jeweiis die Polyphonem-Region, die Zweisprachen-Region und die 
Einsprachen-Region zusammengefaBt In Fig. 1 ist eine solche Polyphonemregion als Scfanittmenge der Kreise 5 
fur die einzelnen Sprachen dargesteOt Beim Mittellaut M des dargestellten hidden Markov Modells ist beispiels- 
weise eine Wahrscheinlichkeitsdichte in einer solchen Region als WDP bezeichnet Die Erkennungsraten fur ein 
kompiettes multiiinguales Spracherkennungssystem sind dabei in Spalte 4 und 5 der Tabelle 2 als ML1 und ML2 
angegeben. 



Language 


# Tokens 


LDP[%] 


ML1[%] 


ML2[%] 


English 


21191 


39.0 


37.3 


37.0 


German 


9430 


40.0 


34.7 


37.7 


Spanish 


9525 


53.9 


46.0 


51.6 


Total 


40146 


42.8 


38.8 


40.8 



Wahrend bei der ersten Untersuchung ML1 die konventioneDe Polyphonem-Definition aus [6] verwendet 
wurde, was bedeutet, daB der komplette akustiscbe Bereich des Poryphonem-ModeDs bestehend aus der iufieren 
Kontur der Sprachbereiche in Fig. l t fur die Erkennung verwendet wurde, benutzt die erfindungsgemafie 
Methode ledigiich einen Teilbereich daraus. Indem die teilweise Oberlappung der einzelnen Sprachbereiche fur 25 
die einzelne ModeOierung des Polyphonem-ModeUs herangezogen wird, ist beispielsweise eine Verbesserung 
von 2% erzielbar, wie dies in Tabelle 2 in der Spalte fur ML2 dargesteOt ist 
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Patentanspruche 

45 

1. Verfahren zur Mehrsprachen Verwendung eines hidden Markov Lautmodelles in einem Spracherken- 
nungssystem, 

a) bei dem ausgehend von mindestens einem ersten Merkmalsvektor fur einen ersten Laut (UMJR) in 
einer ersten Sprache (SPJEN,DE) und von mindestens einem zwehen Merkmalsvektor fur einen ver- 
gleichbar gesprochenen zweiten Laut in mindestens einer zweiten Sprache (DE5PJEN) und deren 50 
zugehorigen ersten und zweiten hidden Markov LautmodeUen, ennittelt wird welches der beiden 
hidden Markov Lautmodelle (L*MJt) beide Merkmalsvektoren besser beschreibt, 

b) und bei dem dieses hidden Markov LautmodeD QLMJR) fur die Modellierang des Lautes in minde- 
stens beiden Sprachen (SPJENJDE) verwendet wird. 

2. Verfahren nach Anspruch 1, bei dem als Mafi fur die Beschreibung eines Merkmalsvektors durch ein 55 
hidden Markov Lautmodell (L^tR) der logarithmische Wahrscheinlichkeitsabstand als log likelihood dist- 
ance zwischen jedem hidden Markov Lautmodell und mindestens einem Merkmalsvektor gebildet wird, 
wobei eine kurzerer Abstand eine bessere Beschreibung bedeutet 

3. Verfahren nach Anspruch % bei dem als MaS fur die Beschreibung der Merkmalsvektoren durch die 
hidden Markov Lautmodelle der arithmetische Mittelwert der logarithrnischen Wahrecheinfichkeitsabstan- 60 
de bzw. der log likelihood distances zwischen jedem hidden Markov Lautmodell (UMJl) und jedem 
jeweiiigen Merkmalsvektor gebOdet wird, wobei eine kurzerer Abstand eine bessere Beschreibung bedeu- 
tet 

4. Verfahren nach Anspruch 3, bei dem das erste hidden Markov Lautmodell (UMjt) von einem Phonem Xi 
und das zweite hidden Markov Lautmodell von einem Phonem Aj verwendet wird und bei dem als erste und 65 
zwehe Merkmalsvektoren Xi und Xj verwendet werden, wobei der logarithmische Wahrscheinlichkeitsab- 
stand zum ersten Merkmalsvektor gemaB 
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d(XiXi) - logpPQlXd - IogppCilXi) (1) 



bestimmt wird und der logarithmische Wahrscheinlichkeitsabstand zum zweitea Merkmalsvektor gemaB 



bestimmt wird wobei zur Erzielung eines symmetrischen Abstandsmafies der arhhmetische Mittelwert zu 



5. Verfahren nacb Anspruch 4, bei dem dieses hidden Markov Lautmodell (L»MJt) fur die Modellierung des 
Lautes in mindestens beiden Sprachen nur verwendet wird, falls d(Xj*X0 eiae festgelegte Schrankenbedin- 
gungerfuHt 

6. Verfahren zur Mehrsprachenverwendung eines hidden Markov Lautmodelles in einem Spracherken- 
nungssystem, 

a) bei dem ausgehend von mindestens einem ersten hidden Markov Lautmodell (UMJEt) fGr einen 
ersten Laut in einer ersten Sprache (SP,EN,DE) und von mindestens einem zwehen hidden Markov 
Lautmodell (L*MJt) fur einen vergieichbar gesprochenen zweiten Laut in mindestens einer zwehen 
Sprache (DE£P,EN), ein Poly Phonem Modell derart gebOdet wirdL daB die fur die Modellierung des 
ersten und zweiten hidden Markov Lautmodelles (L»MJt) verwendeten Standardwahrscheuilichkeits- 
verteilungen (WD) bis zu einem festgelegten Abstandsschwellenwert, der angibt bis zu welchem 
maximalen Abstand zwischen zwei Standaniwahrecheinlichkeitsverte3ungen (WD) diese zusammen- 
gefugt werden sollen zu jeweils einer neuen Standardwahrscheinlichkeitsverteilung (WDP) zusammen- 
gefugt werden und Iedigtich die zusammengefugten Standardwahirscheinlichkeitsverteilungen das Poly 
Phonem Modell charakterisieren 

b) und bei dem dieses Poly Phonem ModeD fur die Modellierung des Lautes in mindestens beiden 
Sprachen (DESPJEN) (I*M*R) verwendet wird. 

7. Verfahren nach Anspruch 6, bei dem als Abstandsschwellenwert 5 festgelegt wird 

8. Verfahren nach einem der vorangehenden Anspruche bei dem hidden Markov LautmodeUe mh drei 
Zustanden verwendet werden, welche aus den Lautsegmenten Anlaut, Mhteilaut und Ablaut gebildet 
werden. 



d(X*Xd « logppCjlXj) - logppCjfo) (2) 
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